Non-Parametric Document Clustering by Ensemble Methods Clustering No Paramétrico de Documentos mediante Métodos de Consenso
نویسندگان
چکیده
The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper presents a comparison of strategies for non-parametric document ensemble clustering.
منابع مشابه
Combinación de clusterizadores difusos mediante voto posicional para clustering robusto de documentos
The combination of multiple clustering processes provides a means for building robust document clustering systems. This work focuses on the consolidation of fuzzy clusterings, proposing two consensus functions for soft cluster ensembles based on the Borda and Condorcet positional voting strategies. Experiments conducted on two document corpora reveal that the proposed soft consensus functions a...
متن کاملRobust Document Clustering by Exploiting Feature Diversity in Cluster Ensembles
Resumen: Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo dif́ıciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodoloǵıa basada en diversidad de representaciones y conjuntos de clasificadores no supervisado...
متن کاملIdentification of related multilingual documents using ant clustering algorithms Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas
This paper presents a document representation strategy and a bio-inspired algorithm to cluster multilingual collections of documents in the field of economics and business. The proposed approach allows the user to identify groups of related economics documents written in Spanish and English using techniques inspired on clustering and sorting behaviours observed in some types of ants. In order t...
متن کاملSistema de almacenamiento y gestión de documentos para el desarrollo de bibliotecas digitales
El sistema propuesto se ha diseñado para el almacenamiento y gestión de documentos de una biblioteca. La arquitectura del sistema es altamente genérica, con el objetivo de no restringir la clase de documentos gestionables por él. Con ello creamos un sistema base o primario que es independiente del tipo de documento, siendo capaz de almacenar documentos sin atenerse a su formato. El sistema es a...
متن کاملTécnicas de representación de textos para clasificación no supervisada de documentos
This paper analyzes the influence of text representation in the document clustering problem. Taking a term-based vector space model representation as a reference, several low-dimensionality data representation techniques are analyzed (derived by means of terms extraction techniques such as Latent Semantic Analysis, Non-negative Matrix Factorization and Independent Component Analysis) in order t...
متن کامل